当所有智能体都在“少数服从多数”时,错误也可能被投票放大。但如果不再追求共识,会发生什么?

一项研究结果显示,仅通过单轮协作,无需达成共识,多智能体协同反而能实现更高的准确性、效率和鲁棒性。

这个有些“反直觉”的结论,来自浙江清华长三角研究院信息技术研究所张海滨教授团队(通讯作者)与北京理工大学团队近期合作的研究,他们研发出一种多智能体协作架构 Free-MAD,打破了多智能体辩论必须“达成共识”的铁律。

在多项任务评测中,Free-MAD 在显著降低硬件资源需求的同时,无需达成共识,仅通过单轮协作,能高效组合数个(中小型)开源大模型,在部分复杂任务方面超越国际主流单体大参数模型(如 Gemini 3、GPT-5.2)的性能水平。


图丨张海滨团队(来源:受访者)

近年来,多智能体协同正成为提升大模型推理能力的热门方向之一,Anthropic、月之暗面等机构也在关注该方向。

传统方法中大模型特有的从众机制是,哪怕是错误的观点也要“少数服从多数”。另一方面,传统多智能体协作方案通常需要两至三轮交互才能达成共识,这会导致模型的准确率和性能均不高,并且费时费钱。

该方案摒弃了传统方法,基于奖励评分决策机制评估整个辩论轨迹,而非仅依赖最后一轮结果;同时通过抗从众机制,使智能体有效识别并避免从众错误推理的传播。

与传统方法相比,在该框架下仅需单轮多智能体交互,即可实现与传统方法的推理相当的效果;在对抗环境下,具有更强的鲁棒性、较低的推理开销以及更高的可拓展性。

该研究为在算力受限环境下实现高性能模型应用,提供了一种兼具成本和性能的技术路径。对工业界而言,意味着可部署更轻量、更便宜、更安全的 AI 协作系统;对学术界而言,它开启了“非共识化多智能体系统”的新方向。


图丨相关论文(来源:arXiv)

参数堆砌之外的突破:多智能体协作的效率革命

当前,全球大模型技术发展呈现出明显的结构性不平衡。一方面,国际上先进的大模型,例如谷歌的 Gemini、OpenAI 的 GPT 以及 Anthropic 的 Claude Opus 系列等仍以闭源为主。尽管在性能和通用能力方面具有优势,但受到技术封锁、合规限制及地缘政治因素等影响,其难以实现广泛获取与使用。

另一方面,国内开源模型在透明性、可审计性和自主可控方面具备优势,但不容忽视的一个问题是,其在综合性能、复杂任务处理能力等关键指标上,与顶尖闭源模型仍存在一定的差距。

实际部署层面的挑战同样严峻,现有部分 200B 及以上参数规模的大模型(如 DeepSeek-V 系列、Qwen 高参数版本等)往往高度依赖多张 NVIDIA H200 级 GPU 硬件,单卡成本较高,这对整体算力来说是一项较高的支出。

相比之下,轻量级小参数模型,例如 32B 级开源模型可在多张 NVIDIA 4090 级别的消费级显卡环境下完成部署,但它的局限性在于单模型能力在复杂任务场景和应用深度方面受限。


图丨基于分数的 Free-MAD 协议及其评价(来源:arXiv)

在此背景下,研究团队开发了全新多智能体协作架构 Free-MAD。为有力抑制答案的“盲目跟风”,研究人员引入了反从众的机制来重构辩论阶段。通过鼓励批判性思维,系统可实现主动降低对多数意见的敏感度。

张海滨对 DeepTech 解释道:“不能为了达成共识而达成共识,而是应该去思考问题的本身。每个大模型或智能体都会产生自己的思考结果,其不仅要收到对方的结果来做决定,更重要的是,要用批判性思维来看待对方的推理过程是否合理。”

在决策阶段,研究团队基于纯算法逻辑引入了奖励评分决策机制,来评估整个辩论轨迹。这样,最终决策并非取决于最后一轮“谁声量高听谁的”,而是通过全程追踪辩论过程中所有智能体的每次推理轨迹变化。


(来源:arXiv)

这种决策逻辑带来的好处是,无需在辩论阶段达成共识,即便正确答案在末轮未获得多数投票,系统仍可能基于它在辩论过程中的稳定表现或合理转变而获得结论。

除了开发全新的推理框架,这项研究还揭示了多智能体协同中有趣的现象:有的场景下,异构模型的效果强于同构模型;但其他场景下,同构模型反而更强,甚至对应不同的工作或者任务,需要动态调整核心算法与参数。

对于非专业的用户来说,Free-MAD 无异于通用大模型或智能体应用,而针对专业用户,研究团队在此基础上进行参数调优,进化出高度优化的通用版本 MAX-MAD,使性能和准确率进一步提升,以应对不同的场景和赛道。

“参数调优的好坏直接关系到准确性,甚至关系到整个共识达成的速度。因此,我们设置了额外的一些重要的参数调优。”该论文第一作者崔宇对 DeepTech 表示。

据悉,该系统前置了三个重要模块:针对输入任务的分类(例如数学、推理、哲学,或其他问题)等,对任务复杂度评估以及策略参数优化器。此外,研究人员还开发了智能体的自适应模块以及反馈机制的收集。

破解大模型协作中的从众难题

在实验部分,研究团队的测试覆盖了 8 个数据集,包括数学推理(GSM-Ranges、AIME2024、AIME2025 和 MATH500)、逻辑推理(StrategyQA 和 MMLU 的逻辑谬误数据集)、知识和理论推理(AICrypto 的多选题数据集)等。

据团队介绍,在综合数学推理测试中,研究人员综合使用国内的四大开源模型组合(Qwen3-235B、DeepSeek-V3.2、Kimi-K2 和 GLM-4.7)以及调用同一个国产大模型的单一组合(以上任意一种大模型, 如 Qwen3-235B)。

综合来看,Free-MAD 和 MAX-MAD 通过多智能辩论后,能够达到约 86.67%-90% 的准确率,不仅将四个单体模型本身的准确率大幅提升了 15-30%,更值得关注的是,该准确率也超过了主流闭源模型(如 Gemini 3、GPT-5.2)在相同数据集上的公开成绩。


(来源:arXiv)

基线方法采用了被广泛采用的多智能体辩论框架 SoM,结果显示,Free-MAD-N(反从众辩论+评分决策)在单轮辩论(R=1)时准确率达 64.43%,比基线 2 高近 10%,比基线 1 高近 19%。

值得关注的是,基线方法在单轮辩论时效果不佳,单轮无法形成共识;而 Free-MAD 不需要共识,单轮结果优于基线两轮成绩。


(来源:arXiv)

从 token 消耗结果来看,Free-MAD 或 MAX-MAD 的轮数由原来的两三轮变成现在的单轮,相当于整个 token 的使用量或带宽的使用量降为原来的一半。“这也是一项重要的成本节省。”张海滨说道。

在安全性方面,研究团队也进行了相关设计。智能体往往涉及到多智能体协作,50% 智能体被断网时,基线准确率会下降 15%-20%。因此,需要考虑的情况是:万一部分智能体无法正常工作,或系统的一部分不工作的情况,是否能保障系统的安全性,以及是否仍能够按时获得输出结果。

经过研究人员测算,Free-MAD 或 MAX-MAD 系统在抵御宕机或通信攻击情况下的表现较为理想。实验结果显示,即便智能体(短暂)离线,或受到敌手攻击,不能把自己的信息发送情况下,其余的智能体也能准确地完成任务。

从实验室走向产业:多智能体协作的落地路径

据研究团队介绍,来自研究社区的英国独立研究团队已基于该成果复现了 Free-MAD。值得注意的是,相关团队将包括权重在内的所有系统超参数设为自适应可配置,并引入了基于归一化的方法及若干额外工程化策略,显著提升了系统的实用性与并行能力。

这种兼具安全性和性能优势的框架有望用于高质量推理内容生成,以及智慧医疗、舆情治理、金融分析等高安全敏感应用领域。

在高质量内容生成领域,基于框架较强的通用性,该方案可直接用于任意大模型和智能体进行传统的智能问答。尽管它在结果返还速度上相对传统大模型较慢,但基于辩论优化逻辑链,可大幅度提升政策解读、行业报告等文本的专业性与可信度。

在智慧医疗领域,该成果有望模拟心内、影像、病理等多科室专家会诊,甚至产生辩论,来对疑难病症进行诊断。

例如,三个智能体分别对患者病情进行评估,在其中两个智能体误判为良性,一个智能体坚持是恶性的情况下,传统的 MAD 方法有可能因为共识压力输出错误的结果,而该方案能通过特有的轨迹分析,识别出少数派的扎实推理理念,进而做出更精准的评估。

在舆情治理方面,可构建虚拟的辩论社区,多角度解构舆情领域的脉络,实现风险的早识别、早干预。目前,在汽车舆情的治理方面,研究团队已经有相关落地案例。张海滨指出,“从结果来看,通过辩论得到的结果,明显优于单模型或传统共识型多智能体方案。”

在金融分析领域,多 Agent 协同有利于更好地研判市场信号,生成逻辑严密的投资策略和风控报告。


图丨张海滨(来源:受访者)

张海滨教授目前担任浙江清华长三角研究院信息技术研究所所长、学术带头人,其团队致力于为 AI 提供从数据层、模型层到应用层的完善解决方案。

该团队承担多项国家级与省部级科研项目,例如“天枢·可信数据空间”。围绕可信数据空间与多智能体协同架构展开研究,并落地大小模型协同的“天迹·工业智能体”。相关成果已在能源、电信、国家电网、国家管网等领域落地,并参与包括央行数字货币等在内的多边金融基础设施项目建设。

在未来的研究中,该团队计划构建新一代策略参数优化的更高性能、更准确的多智能体协作框架。目前,他们正在探索将该框架与硬件系统结合的可能性,旨在通过硬件优化解决多智能体辩论中分词、解码及广播带来的带宽消耗和延迟问题。

在算力成为瓶颈的时代,或许这类架构创新比单纯堆参数更具战略意义。

参考资料:

1.Yu Cui, Hang Fu, Haibin Zhang, Licheng Wang, Cong Zuo, Free-MAD: Consensus-free multi-agent debate, arXiv preprint arXiv:2509.11035

2.系统已开放内测,感兴趣的读者可邮件联系李老师: likang@tsinghua-zj.edu.cn

运营/排版:何晨龙